A paper reading
Robust Probabilistic Modeling with Bayesian Data Reweighting
这篇文章大致讲了什么?
在概率模型PM(这里含隐变量$\beta$)的框架下,现实中很多数据data往往与假设的分布不符或者有些许偏差,导致概率模型做出的推断或者预测效果不太好。因此我们希望能够检测出这种不匹配mismatch的性质,并由此给每个观测observation样本加一个权重,这样模型会对不好的数据有更好的稳健性。权重和隐变量将一起由推断得到(类似meta weight net那样的)。
大概的算法是什么?
首先提供的数据是有N个独立观测的样本的数据集$y = (y_1, \cdots, y_n)$。
- 首先给定基本的概率模型PM,其对应的联合分布是$p_\beta(\beta)\prod_{n=1}^{N}l(y_n|\beta)$,$l(y_n)$是数据$y_n$的可能性likelihood,由此PM给定,$\beta$是隐变量,它有一个先验$p_\beta(\beta)$。
- 加权后的模型定义成reweighted probabilistic model,即RPM,权重$w_n$的先验是$p_w(w)$。新的RPM是,其中$Z$是对应的归一化常数。
- 最后同时推断隐变量和权重参数$\beta$和$w$,对应的后验是$p(\beta, w|y)$。
为什么加权加在可能性似然的次幂上?我们考虑对联合分布取对数:
后验推断其实近似为最大化上面的对数联合概率。当某个观测样本$y_i$不太服从假设分布时,我们认为其可能性$l(y_i)$比较低,趋近于0,那么其对数$log\ l(y_i|\beta)$的绝对值为很小的负数,因此为了增大上式,需要使其权重$w_i$变小,即有问题的数据的权重要小一些;反之亦然。好像还有一种解释是把上式最后一项看成是loss,前面两项看成正则,具体怎么分析我忘啦…
案例研究Case Study
这个案例是Poisson因子分解模型,去做电影推荐。
Automated Identification of Chromosome SegmentsInvolved in Translocations by Combining Spectral Karyotyping and Banding Analysis
这篇文章讲的是DTW,即动态时间规划算法在染色体条带匹配上的应用。